固有的图像分解是一个重要且长期存在的计算机视觉问题。给定输入映像,恢复物理场景属性的定位不足。几个出于身体动机的先验已被用来限制固有图像分解的优化问题的解决方案空间。这项工作利用了深度学习的优势,并表明它可以以高效率解决这个具有挑战性的计算机视觉问题。焦点在于特征编码阶段,从输入图像中提取不同固有层的区分特征。为了实现这一目标,我们探讨了高维特征嵌入空间中不同内在组件的独特特性。我们定义特征分布差异,以有效地分离不同内在组件的特征向量。功能分布也受到限制,以通过特征分布一致性符合真实的分布。此外,还提供了一种数据完善方法来消除Sintel数据集中的数据不一致,使其更适合固有图像分解。我们的方法还扩展到基于相邻帧之间像素的对应关系的固有视频分解。实验结果表明,我们提出的网络结构可以胜过现有的最新最新。
translated by 谷歌翻译
深度神经网络(DNN)已在脑病变检测和分割中广泛采用。但是,在2D MRI切片中定位小病变是具有挑战性的,需要在3D上下文聚集的粒度和计算复杂性之间取得平衡。在本文中,我们提出了一种新型的视角变压器,以增强MRI特征的提取,以进行更准确的肿瘤检测。首先,所提出的变压器在3D脑扫描中收获了不同位置之间的远程相关性。其次,变压器将一堆切片功能堆叠为多个2D视图,并增强这些特征的视图,该功能大致以有效的方式实现了3D相关计算。第三,我们将提出的变压器模块部署在变压器主链中,该模块可以有效地检测到脑损伤周围的2D区域。实验结果表明,我们提出的观看式变压器在具有挑战性的大脑MRI数据集上对大脑病变检测表现良好。
translated by 谷歌翻译
单步反转合作是逆合合成计划的基石,这是计算机辅助药物发现的至关重要的任务。单步回合合成的目的是确定导致一个反应中靶产物合成的可能反应物。通过将有机分子表示为规范串,现有的基于序列的折叠方法将乘积 - 反应性逆合合成视为序列到序列翻译问题。但是,由于确定性推断,他们中的大多数人都难以识别所需产物的多种化学反应,这与以下事实相矛盾:许多化合物可以通过各种反应类型与不同的反应物组成。在这项工作中,我们旨在增加反应多样性并使用离散的潜在变量产生各种反应物。我们提出了一种基于序列的新方法,即RetrodVcae,该方法将条件变分自动化码器纳入单步回逆转录中,并将离散的潜在变量与生成过程相关联。具体而言,RetroDVCAE使用Gumbel-Softmax分布来近似于潜在反应的分类分布,并生成与变异解码器的多组反应物。实验表明,RetroDVCAE在基准数据集和自制数据集上的最先进基准均优于最先进的基线。定量和定性结果都表明,转化vcae可以在反应类型上对多模式分布进行建模,并产生各种反应物候选物。
translated by 谷歌翻译
在3D形状分析的区域中,长期以来已经研究了形状的几何特性。本文专用于从形状形成过程中发现独特信息,而不是使用专业设计的描述符或端到端深神经网络直接提取代表功能。具体地,用作模板的球形点云逐渐变形以以粗细的方式拟合目标形状。在形状形成过程中,插入若干检查点以便于记录和研究中间阶段。对于每个阶段,偏移字段被评估为舞台感知的描述。整个形状形成过程的偏移的求和可以在几何形状方面完全定义目标形状。在这种观点中,人们可以廉价地从模板导出从模板的点亮形状对应,这有利于各种图形应用。在本文中,提出了基于逐行变形的自动编码器(PDAE)来通过粗到细小的形状拟合任务来学习舞台感知的描述。实验结果表明,所提出的PDAE具有重建高保真度的3D形状的能力,在多级变形过程中保留了一致的拓扑。执行基于舞台感知描述的其他应用程序,展示其普遍性。
translated by 谷歌翻译
The rapid development of remote sensing technologies have gained significant attention due to their ability to accurately localize, classify, and segment objects from aerial images. These technologies are commonly used in unmanned aerial vehicles (UAVs) equipped with high-resolution cameras or sensors to capture data over large areas. This data is useful for various applications, such as monitoring and inspecting cities, towns, and terrains. In this paper, we presented a method for classifying and segmenting city road traffic dashed lines from aerial images using deep learning models such as U-Net and SegNet. The annotated data is used to train these models, which are then used to classify and segment the aerial image into two classes: dashed lines and non-dashed lines. However, the deep learning model may not be able to identify all dashed lines due to poor painting or occlusion by trees or shadows. To address this issue, we proposed a method to add missed lines to the segmentation output. We also extracted the x and y coordinates of each dashed line from the segmentation output, which can be used by city planners to construct a CAD file for digital visualization of the roads.
translated by 谷歌翻译
步态情绪识别在智能系统中起着至关重要的作用。大多数现有方法通过随着时间的推移专注于当地行动来识别情绪。但是,他们忽略了时间域中不同情绪的有效距离是不同的,而且步行过程中的当地行动非常相似。因此,情绪应由全球状态而不是间接的本地行动代表。为了解决这些问题,这项工作通过构建动态的时间接受场并设计多尺度信息聚集以识别情绪,从而在这项工作中介绍了新型的多量表自适应图卷积网络(MSA-GCN)。在我们的模型中,自适应选择性时空图卷积旨在动态选择卷积内核,以获得不同情绪的软时空特征。此外,跨尺度映射融合机制(CSFM)旨在构建自适应邻接矩阵,以增强信息相互作用并降低冗余。与以前的最先进方法相比,所提出的方法在两个公共数据集上实现了最佳性能,将地图提高了2 \%。我们还进行了广泛的消融研究,以显示不同组件在我们的方法中的有效性。
translated by 谷歌翻译
分类激活图(CAM),利用分类结构来生成像素定位图,是弱监督物体定位(WSOL)的关键机制。但是,CAM直接使用对图像级特征训练的分类器来定位对象,从而更喜欢辨别全局歧视性因素,而不是区域对象提示。因此,在将像素级特征馈入此分类器时,只有判别位置才能激活。为了解决此问题,本文详细阐述了一种称为Bagcams的插件机制,以更好地投射训练有素的本地化任务分类器,而无需完善或重新训练基线结构。我们的手袋采用了拟议的区域定位器(RLG)策略来定义一组区域本地化,然后从训练有素的分类器中得出。这些区域本地化可以被视为基础学习者,只能辨别出针对本地化任务的区域对象因素,而我们的袋子可以有效地加权其结果以形成最终的本地化图。实验表明,采用我们提出的口袋可以在很大程度上提高基线WSOL方法的性能,并在三个WSOL基准上获得最先进的性能。代码可在https://github.com/zh460045050/bagcams上发布。
translated by 谷歌翻译
在过去的几年中,基于变压器的预训练的语言模型在行业和学术界都取得了惊人的成功。但是,较大的模型尺寸和高运行时间延迟是在实践中应用它们的严重障碍,尤其是在手机和物联网(IoT)设备上。为了压缩该模型,最近有大量文献围绕知识蒸馏(KD)的主题长大。然而,KD在基于变压器的模型中的工作方式仍不清楚。我们取消了KD的组件,并提出了一个统一的KD框架。通过框架,花费了23,000多个GPU小时的系统和广泛的实验,从知识类型的角度,匹配策略,宽度深度折衷,初始化,型号大小等。在培训前语言模型中,对先前最新的(SOTA)的相对显着改善。最后,我们为基于变压器模型的KD提供了最佳实践指南。
translated by 谷歌翻译
人类骨骼数据由于其背景鲁棒性和高效率而受到行动识别的越来越多。在基于骨架的动作识别中,图形卷积网络(GCN)已成为主流方法。本文分析了基于GCN的模型的基本因素 - 邻接矩阵。我们注意到,大多数基于GCN的方法基于人类天然骨架结构进行其邻接矩阵。根据我们以前的工作和分析,我们建议人类的自然骨骼结构邻接矩阵不适合基于骨架的动作识别。我们提出了一个新的邻接矩阵,该矩阵放弃了所有刚性邻居的连接,但使该模型可以适应地学习关节的关系。我们对两个基于骨架的动作识别数据集(NTURGBD60和FINEGYM)进行了验证模型进行广泛的实验和分析。全面的实验结果和分析表明,1)最广泛使用的人类天然骨骼结构邻接矩阵在基于骨架的动作识别中不适合; 2)所提出的邻接矩阵在模型性能,噪声稳健性和可传递性方面表现出色。
translated by 谷歌翻译
将监督学习的力量(SL)用于更有效的强化学习(RL)方法,这是最近的趋势。我们通过交替在线RL和离线SL来解决稀疏奖励目标条件问题,提出一种新颖的阶段方法。在在线阶段,我们在离线阶段进行RL培训并收集推出数据,我们对数据集的这些成功轨迹执行SL。为了进一步提高样本效率,我们在在线阶段采用其他技术,包括减少任务以产生更可行的轨迹和基于价值的基于价值的内在奖励,以减轻稀疏的回报问题。我们称此总体算法为阶段性的自我模拟还原(Pair)。对稀疏的奖励目标机器人控制问题(包括具有挑战性的堆叠任务),对基本上优于非强调RL和Phasic SL基线。 Pair是第一个学习堆叠6个立方体的RL方法,只有0/1成功从头开始奖励。
translated by 谷歌翻译